首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏罗西的思考

    智能AIOps-学习笔记

    0x01 AIOps 背景 1.1 AIOps概述 智能的理想状态就是把工作的三大部分:监控、管理和故障定位,利用一些机器学习算法的方法把它们有机结合起来。 AIOps平台主要通过整合分析IT基础设施、APM、NPM、日志、数字化体验监测数据,来提升IT流程的效率。 2.6.3 微众银行知识图谱 传统根因推导过程是工程师通过对软件架构和调用关系的理解将异常发生时的告警、日志等信息联系在一起,应用知识经验来排查推导异常根因,相当于在大脑中存储和训练了一个知识图谱 (AIOps)中几处问题的解决方案与思路 AIOps智能之三:无监督异常检测 技术干货 | 日志易产品总监饶琛琳:数据驱动的智能平台 从人肉到智能,阿里体系经历了哪些变迁? 根因分析初探:一种报警聚类算法在业务系统的落地实施 京东物流基于开源APM的智能体系建设与落地 百度 AIOps 实践中的四大金刚

    3.9K23发布于 2020-09-07
  • 传统 vs 智能差距有多大?腾讯云 CloudQ 重新定义方式

    我整理了传统维和智能在6个核心维度的对比,让你看清楚这个差距到底有多大。维度一:如何发现问题传统:靠监控告警被动通知。 维度三:如何传承知识传统:知识在人头上。老员工知道哪些坑,新员工需要几个月才能上手手册写了但没人看,更没人更新核心人员离职=能力断崖式下降智能:知识在系统里。 维度四:如何管理多云传统:三个云=三份工作。每个云一套控制台,各自登录各自的告警系统,各自的账单,各自的权限管理汇总多云数据需要人工整理,每周半天不止智能(CloudQ):一个入口,统一视图。 一键生成可视化巡检报告,直接转发给团队同事点链接直接跳转控制台处理,免密登录订阅推送,报告按时送到,不需要手动触发维度六:成本意识传统:资源浪费难以发现。 总结传统维和智能的差距,不只是工具的差距,是工作方式的差距:从被动响应到主动预防从个人经验到系统知识从多地登录到统一视图从手工报告到自动化推送腾讯云CloudQ(JustQIT!)

    10510编辑于 2026-04-10
  • 来自专栏日志易的专栏

    未来的发展方向是智能AIops

    随着智能化技术的发展,为了解决上述领域的问题,智能的呼声越来越高。 3、在大数据时代, 智能与数据、自动化之间的关系 智能的理想状态就是把工作的三大部分(监控、管理和故障定位),利用一些机器学习的方法有机结合起来。 目前能够把这三部分融合起来的办法就是利用人工智能的手段,最后达到一种智能的状态。 4、智能当下的状况及智能发展的预测 智能当下还是一个初步探索的阶段。 传统的 IT 需要管理大量的告警,极大地分散了企业的注意力,消耗人员大量的时间和创新力。 现在比较明确的是大家会朝着智能方向发展,并且智能的发展一定是一个长期演进的过程。 对于智能的发展预测,我的简单看法如下: 智能会首先体现出其在告警系统上的价值。

    4.4K31发布于 2017-12-13
  • AI如何赋能ITAIOps

    一、AI为什么对IT重要? 传统存在几个痛点:传统痛点AI带来的改变告警量大、难筛选根因AI可识别告警关联性并自动根因定位故障靠人工排查,耗时长模型可溯源日志、抓异常趋势并提前预警经验靠个人积累,不可复制AI沉淀规则→ 变成可复用知识库人工巡检、排障重复度高AI可自动巡检、自动修复脚本闭环AI真正落地价值:节省人力成本、缩短故障恢复时间(MTTR)、减少业务中断风险二、AI赋能IT的核心能力AI功能作用可落地场景日志分析 价值:✔避免数据库节点宕机✔保障核心账单业务不出现停机✔形成长期健康评分体系案例3:AI自动化闭环–服务异常自动恢复目标异常发生后不依赖人工处理,形成无人值守自动修复系统。 写在最后AI赋能不是概念,而是已能实打实落地的生产力工具。一句总结:AIOps=经验沉淀+自动分析+主动预测+自动修复,最终目标是无人值守与业务持续可用。

    91710编辑于 2025-11-29
  • 来自专栏前沿技墅

    从ITOM到AIOps:IT管理向智能的进化

    到2022年,40% 的大型企业会通过大数据和机器学习的能力来帮助甚至逐渐取代传统中的监控、服务台及自动化流程。 AIOps重新定义了IT的管理方式,为IT团队适时提供适当信息,以便实现以下几点。 ,推送给人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。 AIOps与现有ITOM平台的关系具体如何呢?传统IT管理平台,即 ITOM 平台,往往是为完成单一管理任务而设计的,更偏向于管理某一细分专业领域。 规模不断扩大的 IT 系统、日益复杂的系统架构,以及海量的 IT 数据对使用传统ITOM的人员而言都如芒在背。

    5.7K50发布于 2018-06-08
  • 来自专栏织云平台团队的专栏

    【活动】腾讯总监带你探索 AIOps

    而作为救火队员的在产品业务建设初期参与架构规划也是减少后期灾难的重要手段。 智能化 本来就是在解决各种场景下的问题,智能化技术是一些新手段帮助解决过去解决不了的问题,我认为能利用好这个技术手段解决问题的就算是智能了。 AIOps 并非万能,但它的的确确能让彻底脱离重复低效的手工作坊式的工作。从升级成技术运营,因此焕发第二春。 腾讯在智能应用上有哪些套路和高招? 作为一名伴随腾讯十年的老兵,腾讯总监聂鑫有话对你说... 个人简介: 从开发到,伴随腾讯社交网络运营部成长的十年,负责过腾讯社交产品所有业务工作。 作为界老兵有好多故事想和大家讲,也特别愿意听听各位经历的酸甜苦辣。 2018年5月26日,高效 AIOps 北京沙龙,腾讯总监聂鑫老师将来到现场,并分享腾讯在智能领域的实践经验。

    2.3K80发布于 2018-05-22
  • 来自专栏IT大咖说

    AIOps基础-从自动化到智能化

    图片来自网络 在传统里面问题发现可能是系统,但是最终的问题分析定义,问题决策和问题解决则是需要人工进行处理。 图片来自网络 在该图里面也可以看到,智能化传统的自动化平台和功能的基础上,增加了底层的大数据存储,处理和分析技术平台能力。同时增加了AI算法库,AI建模分析能力。 ? 对于自动化,传统我们可能是编写自动化的脚本,然后是手工或定时的执行运脚本完成整个自动化执行过程和例行检查。 优自动化平台解决方案不同于传统的单一业务自动化解决方案,是真正面向企业部门提供平台+场景能力的解决方案。 智能传统软件监控的基础上,能够进一步做到出现问题也能够被自动修复和解决,而不需要人工干预。

    8.5K31发布于 2020-11-03
  • 来自专栏腾讯云技术沙龙

    张戎:腾讯云智能(AIOps)项目实践

    本期沙龙围绕展开了一场技术盛宴,从AIOps、Serverless DevOps、蓝鲸PaaS平台、K8S等分享关于业务的技术实践干货,同时带来腾讯海量业务自研上云实践,推动传统向云转型 然后很多人在上面开发各种各样的工具,再将公共的能力,或者说是通用的能力给它抽建出来,抽建出来就可以逐渐搭建我们AIOPS的算法工具。这个就是工具开发和开发的东西。 第一个能够做的肯定是异常检测,我想几乎所有的公司或者说企业,或者说是个人,甚至到部门的话,只要做机器学习,AIOPS肯定就是从异常检测开始,后面可能会做一些预测、多维分析或者是其他的分析包括一些余型监控这样的东西 而在整个AIOPS这一块,我们也和很多同行讨论过,在这个角色划分这一块,团队其实是一个比较复杂的团队,只有是不太够的,主要是了解业务场景的诉求,包括他想知道当前的业务出现了什么情况,他该如何处理这个故障 在这个AIOPS过程中这一块是非常重要的,缺了它就很难做成,所以工程师、开发工程师和机器学习的工程师是互联辅助、互联扶持的关系。 幻灯片8.PNG 下面我们来说一下单时间序列分析。

    5.1K54发布于 2019-11-14
  • 来自专栏互联网运维杂谈

    传统企业的之痛

    之痛1:人肉 vs 平台 人肉不是传统的当下过失,是过去的延续。在早期,的很多能力建立在少量的高可用硬件对象之上,平台化的需求很弱。 不过很开心的是,传统企业人对平台拥抱非常强烈,从自身能力自动化到全流程的持续交付自动化。 我也经过和传统企业的IT部门深入广泛接触,大家对自动化作为突破口非常认可,更愿意以此为原点,单点突破,再全面覆盖。 之痛2:流程 vs 创新 很多人会告诉我,在传统企业中没办法,我们必须通过流程来驱动各个组织角色,确保协同工作。真的如此么?我们在腾讯维护那么多产品线,没有流程怎么做到的?然后真的会混乱不堪么? 传统企业的问题绝不是人的能力问题,是多方因素的综合结果,因此在寻求解决方案的时候,需要立体的方案。

    94121发布于 2019-11-20
  • 来自专栏智能运维圈

    IT发展进程中不同时期的差异!传统、互联网、业务

    作为IT运行的有力保障,在不同时期和不同类型的企业中正在发挥着越来越大的支撑和引领作用,今天就让我们聊聊信息化时代的传统、互联网时代的互联网维和数字化时代的业务有什么不同! 故障发生时,要求互联网能够第一时间发现问题,并快速进行根因分析,依靠人工巡检的传统管理方式严重落后,自动化逐渐流行。 ,传统维和互联网难以有效支撑企业的数字化转型。 未来,随着机器学习、深度学习等技术的不断成熟,AI技术将在业务体系中得到广泛的应用,共同推动IT市场的进步,而这就是业务在几年之后发展方向——智能AIOps。 通过不断的数据积累和持续学习,智能AIOps将把人员从纷繁复杂、过度依赖人工的监控、发现、告警和修复工作中彻底解放出来,而也将变得更加自动化、智能化。

    4.5K201发布于 2021-05-11
  • 来自专栏科技云报道

    畅想无人化AIOps,还有多远的路要走?

    2016年,Gartner提出智能AIOps的概念,旨在使用大数据、机器学习等方法来提升能力,其目的是进一步降低自动化中人为干扰,最终实现无人化、自动化。 在面对当前复杂的技术架构、不断引入的创新技术之下,传统团队原来被动救火式、问题驱动式的经验,已经很难实现业务连续性的保障目标。 以场景为导向 场景驱动,以痛点、价值期望切入点,用智能赋能场景,落地智能能力。 AIOps从词来看,应该包括“AI+Ops”,是用AI赋能场景的模式。 为了规范国内智能领域的发展,中国信息通信研究院发布了《智能化AIOps能力成熟度模型》系列标准。 在《智能化AIOps能力成熟度模型》中,面向智能整体能力建设,规定了对IT系统或平台进行智能化的参考框架及分级评估方法,提出了关于企业建设智能化能力的实施路径,能够指导国内互联网和传统行业在智能方向的相关实践落地

    88560编辑于 2023-02-14
  • 来自专栏Forrest随想录

    InfoQ访谈:为什么说的未来必然是 AIOps

    那对于 AIOps 这个新名词,它又会涉及到哪些新技术?从的发展角度看,为什么说 AIOps 是必然趋势?它与自动化之间会有什么样的关系? 另外 AIOps 一定是建立在高度完善的自动化基础之上的,只有 AI 没有 Ops,是谈不上 AIOps。 InfoQ:你认为 AIOps发展的必然趋势吗? 从手工运,到自动化,再到现在的 AIOps,谈谈你理解的发展趋势? 赵成:必然趋势。 当然这个过程中,因为云计算发展,传统的网络、硬件和系统维护的职责在逐渐的被弱化,也在逼迫着的关注点从底层转向应用和业务层面。 所以,一步步发展到当前这个状态,根本上讲还是业务高速发展倒逼出来的,同时,从手动自动化,再到 AIOps,这个过程根本上是在朝着如何更加高效的趋势在发展。

    1K20发布于 2018-08-09
  • 来自专栏腾讯云TVP

    AIOps赋能微服务:打造高效稳定的体系

    4、部署和 由于微服务架构中有多个服务需要独立部署和运行,因此部署和的复杂性增加了。 将异常处理效率提高和用户体验提升后,人员的沟通成本将会极大被降低,这样人员就有更多时间进行技术投入,能将更多“人肉处理”的异常变成自助或自动处理,从而形成“飞轮效应”。 图片 这个图主要体现从数字化,智能化维和智能化运营三个阶段,每个阶段递进,数学化主要体现的就是监控系统,发现问题,故障通知报警,而智能化体现的就是全链路智能化分析,当出现问题后 图片 随着AIOps的不断演进和实践,我们正逐步迈向一个更加智能、高效和稳定的维新时代。 通过将人工智能技术与实践相结合,我们不仅能够提升故障响应和处理的速度,还能够在成本控制和资源优化方面取得显著成效。

    75210编辑于 2024-12-25
  • 来自专栏腾讯云智能顾问

    AIOps 喊了 5 年,为什么你的还在救火?

    超过 60% 的企业已经部署了 AIOps 平台,但大多数团队依然在"告警 → 排查 → 修复"的循环里疲于奔命。问题出在哪?本文换个角度看 AIOps——也许方向比工具更重要。 一、AIOps 的尴尬现状问一线人员一个问题:"你们上了 AIOps 之后,最大的变化是什么?"最常听到的回答是:"告警少了一点……吧?""有个告警聚合功能,还行。""说实话,没太大感觉。" 60% 的企业上了 AIOps,但只有不到 20% 的人员觉得"明显有用"。为什么? 二、两种 AIOps 思路:治已病 vs 治未病治已病(传统路线)治未病(CloudQ 路线)切入点监控数据核心能力告警降噪、异常检测、根因分析解决的问题出了问题更快发现价值体现MTTR(平均修复时间) 这才是 AIOps 应该有的样子:让人员少加班,而不是加班时效率高一点。

    26410编辑于 2026-04-01
  • 来自专栏云+技术

    传统到云演进历程之软件定义存储(四)

    2、影响性能的因素 传统存储的封闭特性带来的优势是从存储操作系统软件到专用硬件的深度优化,而软件定义存储、Server SAN的目的是软件和硬件的解耦合,它们带来了灵活性,免除了硬件厂商锁定,但很多时候却不能充分发挥硬件的潜力

    2K20发布于 2019-04-09
  • 来自专栏云+技术

    传统到云演进历程之软件定义存储(二)

    许多Ceph新手在测试环节以及预生产的时候会对Ceph集群的部署以及调优产生困扰,A公司小哥也遇到了部署和调优问题。下面来看看A公司小哥是如何解决这个问题的。 关卡二:部署调优关(部署) 难度:三颗星 上篇文章开头我也说到了,部署Ceph是新手的噩梦,对于传统来说部署一套Ceph是很难的事情,A公司小哥在官网以及Ceph中国社区的相关资料和帮助下才渐渐熟悉了什么是 图1:网络问题 第二回合:磁盘问题 解决了网络问题又迎来了磁盘分区的问题,小哥折腾了半天没弄好,后来在Ceph中国社区群友的帮助下解决了此事。 而此时就是考验一个人员的处理故障的基本素质,好在这个小哥有过一两年的经验,经过基本排查,最终确定了是时间问题。由于三个节点时间不一致而导致的这个问题,这里称之为“OSD打摆子”。 所以云平台也好存储也好,都会因为时间而产生不必要的故障问题,建议人员要注重时间问题。 ? 图8:Ceph集群 好了言归正传,上图是小哥新搭建好的集群。三节点、六个OSD的Ceph小集群。

    1.2K10发布于 2019-04-09
  • 来自专栏云+技术

    传统到云演进历程之软件定义存储(一)

    从横向、纵向分可以分为多个维度和层次,本文试图抛开这纷繁复杂的概念,讲述一个传统的企业级人员转型到云人员,尤其是软件定义存储的之间经历的沟沟坎坎。 因此,云数据中心的对于传统人员提出了新的能力要求——不仅要熟悉传统硬件设备,同时要掌握虚拟化、云系统的部署、监控和管理等能力。 Ceph工程师对于比传统人员既有相似点也有不同点,要做到能文能武,文能提笔写Ceph手册、预案手册等;武能挥手部署Ceph、进行预案演练、故障处理、集群扩容等。 所以下面我讲述一个真实的A公司传统企业人员转型Ceph SDS的历程。 本文主要说下硬件选型关卡。 欲知后事,且听下文《从传统到云演进历程之软件定义存储(二)》,主要讲述了A公司小哥在硬件选型完毕之后开始部署Ceph遇到的一些问题以及解决办法。

    1.7K20发布于 2019-04-09
  • 来自专栏华汇数据服务

    向运营转型,会是企业IT传统的发展方向吗?

    一、企业传统IT维面临的挑战        我们的传统IT人员在运工作上应该能体会到了三个明显的变化。 在这些场景下,依靠传统的资源管理和人工操作方式已经无法满足业务对服务的要求。 第三,服务用户越来越多        传统企业环境下,仅服务于研发,研发服务于业务部门,服务用户都比较单一。 这些技术,需要人员不断地学习和跟进。传统行业的人员,面对眼花缭乱的维新技术,往往不知如何入手,陷入迷茫。 二、传统IT应该如何转变        面对各种业务上和技术上的新变化,传统人员应该如何应对?        工作充满了大量的简单重复劳动,工作如何突围?         作为传统IT人员,需要从这方面多多学习和转变。 四、最后        如果说过去的传统像经营一家大排档,客人看菜点菜,厨师依需求做菜。

    2.9K30编辑于 2022-04-20
  • 来自专栏一日一工具

    ChatGPT将会改变传统的走向

    特别是在运领域,ChatGPT的出现将会改变传统的走向。 提高自动化水平 ChatGPT可以在运领域中自动处理重复性任务,包括自动化部署、故障诊断等。 此外,ChatGPT还可以帮助人员快速响应用户的问题,提高效率。 关键词:监控 优化资源配置 传统管理中,资源配置通常是静态的,无法快速响应用户的需求。 关键词:资源调度 降低成本 在传统管理中,需要大量的人力和物力成本。而ChatGPT的出现将会降低这些成本,让管理更加高效和经济。 同时,ChatGPT可以帮助人员实现自动化的安全防护,降低系统被攻击的风险。这将使得管理更加安全可靠。 关键词:安全防护 总的来说,ChatGPT的出现将会改变传统的走向。 ChatGPT将成为未来管理的重要组成部分,带来更加高效、灵活、安全可靠的管理模式。 关键词:管理 总之,ChatGPT的出现将会给传统带来一场深刻的变革。

    1.3K20编辑于 2023-03-08
  • AIOps AI-Network 智能:迈向自治网络的核心引擎

    摘要随着网络规模迅速增长、业务类型复杂化、攻击频次提升,以及云网融合集群的普及,传统人工网络模式已难以支撑现代ICT架构。 1.背景:为什么AI自动会成为2025关键趋势? 1.1网络规模与复杂度急速增长海量终端接入(IoT/工业终端/移动设备)云网融合(Multi-Cloud/SASE/SD-WAN)IPv6深度部署6G、F5G光网络加速演进传统方式以“人工+经验”为主 ,难以覆盖:网络问题类型传统处理方式痛点故障定位查日志/抓包/找配置信息耗时长、误判率高性能调优人工分析监控+修改配置响应慢,无法实时调度变更管理手工配置、人工审核错配概率高、安全性差容量预测基于经验不准确 4.4数字孪生网络应用模拟链路中断模拟DDoS攻击模拟配置变更回滚规划新业务上线路径这让从“经验判断”变为“数据驱动5.AIOps在运营商/政企中的典型应用5.1运营商✔故障提前预测AI识别光纤老化趋势

    75540编辑于 2025-12-08
领券